home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group98c.txt / 000012_icon-group-sender _Fri Sep 11 08:21:25 1998.msg < prev    next >
Internet Message Format  |  2000-09-20  |  4KB

  1. Return-Path: <icon-group-sender>
  2. Received: from kingfisher.CS.Arizona.EDU (kingfisher.CS.Arizona.EDU [192.12.69.239])
  3.     by baskerville.CS.Arizona.EDU (8.9.1a/8.9.1) with SMTP id IAA24270
  4.     for <icon-group-addresses@baskerville.CS.Arizona.EDU>; Fri, 11 Sep 1998 08:21:24 -0700 (MST)
  5. Received: by kingfisher.CS.Arizona.EDU (5.65v4.0/1.1.8.2/08Nov94-0446PM)
  6.     id AA31078; Fri, 11 Sep 1998 08:20:57 -0700
  7. To: icon-group@optima.CS.Arizona.EDU
  8. Date: Fri, 11 Sep 1998 09:22:34 +0900
  9. From: Eric Hildum <Eric.Hildum@japan.ncr.com>
  10. Message-Id: <35F86D49.9BDF7813@Japan.NCR.COM>
  11. Organization: NCR Japan
  12. Sender: icon-group-request@optima.CS.Arizona.EDU
  13. References: <35F723CF.76B3CC97@Japan.NCR.COM>, <6t9b4o$8rs$1@ringer.cs.utsa.edu>
  14. Subject: Re: Unicode support or support for non-Ascii based character manipulation?
  15. Errors-To: icon-group-errors@optima.CS.Arizona.EDU
  16. Status: RO
  17.  
  18.  
  19.  
  20. Clinton Jeffery wrote:
  21.  
  22. > Eric Hildum (Eric.Hildum@Japan.NCR.COM) wrote (and I paraphrase/edited):
  23. > : Icon ... supporting only ASCII makes it less useful for non-English language
  24. > : With Unicode... it should be possible to begin including support for
  25. > : non-English and non alphabetic languages.
  26. >
  27. > : Has anyone thought about this yet? What does string and pattern matching
  28. > : mean in, for example, Japanese?
  29. >
  30. > 1. Other folks have been thinking about it, especially Icon users in Asia.
  31. > For example, a Chinese version of Icon has been done by researchers in China.
  32.  
  33. Glad to hear it.
  34.  
  35. >
  36. >
  37. > 2. Going to Unicode might not be *that* difficult, but I think Unicode isn't
  38. > really as widely adopted as you might suggest.  Many people seem to be using
  39. > mixed 8/16-bit strings.
  40.  
  41. Windows NT, Macintosh, use Unicode. Unix is still EUC.
  42.  
  43. >
  44. >
  45. > 3. The semantics of string and pattern matching are no different in Japanese
  46. > than in English.  There is nothing specific to language or grammar in the Icon
  47. > string and pattern matching repertoire.  Of course, when the character set
  48. > changes the actual code needs to change...
  49.  
  50. That surprises me. Given the above comment about mixed 8/16 bit, I would expect
  51. you already would have run into the half width/full width character issue. How did
  52. you handle it?
  53.  
  54. >
  55. >
  56. > 4. Let's look at the current situation for mixed-character sets.  I am not
  57. >    sure how Chinese Icon stands on these, but consider plain-old Windows Icon.
  58. >    Divide functionality as follows:
  59. >         non-alphabetic output: Windows Icon already can do this
  60. >         non-alphabetic input: we have known bugs in the input processing
  61. >                 of these, either in Windows Icon or the IPL "vidgets" code.
  62. >         non-alphabetic string scanning: not supported, but could be
  63. >                 implemented as Icon Program Library procedures.  Even
  64. >                 Unicode string semantics could be implemented as library
  65. >                 procedures on top of (even length!) Icon strings.
  66.  
  67. Chinese is probably the easiest double byte language to support. I don't think you
  68. have really considered or solved all the problems until you can support Japanese
  69. (for representation and manipulation) and Korean (for I/O).
  70.  
  71. >
  72. >
  73. > We don't really need much additional infrastructure.  Some folks in the user
  74. > community could coordinate the library procedures to do this as an
  75. > interesting project.  We do also need someone who can compile Icon from its
  76. > C code and debug I/O problems on a non-alphabetic platform at this point.
  77.  
  78. "non-alphabetic platform" hmmm, you haven't got any Chinese or Japanese grad
  79. students on the Icon project have you...
  80.  
  81. >
  82. >
  83. > --
  84. > Clint Jeffery, jeffery@cs.utsa.edu
  85. > Division of Computer Science, The University of Texas at San Antonio
  86. > Research http://www.cs.utsa.edu/research/plss.html
  87.  
  88. --
  89. ---------------------------
  90. Eric Hildum
  91. Eric.Hildum@Japan.NCR.COM
  92.  
  93.  
  94.